ˆ
f(x) θ
x
(i)
y
(i)
i {1, . . . , m}
y
(i)
{1, . . . , k}
y
(i)
y
(i)
y
x y
x
x y
x
X y y
(i)
Y y
(i)
ˆ
f(x)
{x
(1)
, . . . , x
(m)
}
θ
θ p(θ | x
(1)
, . . . , x
(m)
)
p(x
(1)
, . . . , x
(m)
| θ)
p(θ)
log p(θ | x
(1)
, . . . , x
(m)
) = log p(θ) +
i
log p(x
(i)
| θ) + constant
log Z Z
θ θ
Ω(θ) J
˜
J
˜
J(θ; X, y) = J(θ; X, y) + αΩ(θ)
α
J(x; θ)
α α
α
˜
J
J
θ
L
2
L
2
Ω(θ) =
1
2
w
2
2
w
L
2
α
α
θ w
w
˜
J(w; X, y) = αw +
w
J(w; X, y).
w w (αw + wJ(w; X, y)) .
w (1 α)w wJ(w; X, y).
w
ˆ
J(θ) = J(w
) +
1
2
(w w
)
H(w w
)
H J w w
w
w
H
w
ˆ
J(w) = H(w w
).
αw + H(w w
) = 0
(H + αI)w = Hw
˜
w = (H + αI)
1
Hw
.
w
˜
w α
˜
w w
α H
w
1
w
2
w
˜
w
w
L
2
˜
w
J
w
w
1
w
w
2
Λ Q H = QΛQ
˜
w = (QΛQ
+ αI)
1
QΛQ
w
=
Q(Λ + αI)Q
1
QΛQ
w
= Q(Λ + αI)
1
ΛQ
w
,
Q
˜
w = (Λ + αI)
1
ΛQ
w
.
Q
˜
w
˜
w
Q H
i
λ
i
λ
i
+α
H
λ
i
α
λ
i
α
H
γ =
i
λ
i
λ
i
+ α
.
α
L
2
(Xw y)
(Xw y).
L
2
(Xw y)
(Xw y) +
1
2
αw
w.
w = (X
X)
1
X
y
w = (X
X + αI)
1
X
y.
L
2
X
L
1
L
2
L
1
L
1
w
Ω(θ) = ||w||
1
=
i
|w
i
|,
L
1
L
2
L
1
L
2
˜
J(w; X, y)
w
˜
J(w; X, y) = βsign(w) +
w
J(X, y; w)
sign(w) w
L
1
L
2
w sign(w)
w
J(X, y; w) L
2
L
2
w
w
ˆ
J(w) = H(w w
).
H J w w
H = diag([γ
1
, . . . , γ
N
]) γ
i
> 0
L
1
˜
J(w; X, y) =
1
2
γ
i
(w
i
w
i
)
2
+ β|w
i
|.
i
w
i
= sign(w
i
) max(|w
i
|
β
γ
i
, 0).
L
2
w
(o)
L
1
Ω(θ) = ||w w
(o)
||
1
= β
i
|w
i
w
(o)
i
|
w
1
w
2
˜
w
w
1
w
2
˜
w
L
1
W L
2
w
i
> 0 i
w
i
β
γ
i
w
i
w
i
= 0 J(w; X, y)
˜
J(w; X, y) i L
1
w
i
w
i
>
β
γ
i
w
β
γ
i
w
i
< 0 L
1
w
i
β
γ
i
L
2
L
1
L
1
i
|w
i
|
β
γ
i
L
2
H w
L
2
=
γ
i
γ
i
+α
w
w
w L
1
L
1
L
1
Ω(w)
J
˜
J(w; X, y) = J(w; X, y) + αΩ(w)
α
p(w | X, y) p(y | X, w)p(w) J(w; X, y)
αΩ(w)
L
2
αΩ(w) =
α
2
w
2
2
log p(w; µ, Σ) =
1
2
(w µ)
Σ
1
(w µ)
1
2
log |Σ|
d
2
log(2π)
d w w
µ = 0
Σ
1
= αI L
2
p(w; µ, Σ)
e
α
2
w
2
2
L
2
α
L
1
αΩ(w) = α
i
w
i
w
log p(w; µ, η) =
i
log Laplace(w
i
; µ
i
, η
i
) =
i
|w
i
µ
i
|
η
i
log (2η
i
)
w L
1
i
log Laplace(w
i
; 0, λ
1
)
˜
J(θ; X, y) = J(θ; X, y) + αΩ(θ).
Ω(θ)
k
L(θ, α; X, y) = J(θ; X, y) + α(Ω(θ) k).
θ
= min
θ
max
α,α0
L(θ, α).
θ α α
||θ||
p
> k ||θ||
p
< k
α
θ
θ
= min
θ
L(θ, α
) = min
θ
J(θ; X, y) + α
Ω(θ).
˜
J
α
k
k k α
J
α
α
J(θ) θ
Ω(θ) < k k
α
k
θ
J
˜
J
θ
X
X
X
X
X
X
X
X +αI
w
2w
w
X
+
X
L
2
X
+
= lim
α0
(X
X + αI)
1
X
.
X w = X
+
y
X
w
X
w L
2
x
y
(x, y)
x
180
ˆy(x) x
ˆy(x)
y
J = E
p(x,y)
(ˆy(x) y)
2
,
m {(x
(1)
, y
(1)
), . . . , (x
(m)
, y
(m)
)}
N(0, νI)
˜
J
x
= E
p(x,y,)
(ˆy(x + ) y)
2
= E
p(x,y,)
ˆy
2
(x + ) 2yˆy(x + ) + y
2
= E
p(x,y,)
ˆy
2
(x + )
2E
p(x,y,)
[yˆy(x + )] + E
p(x,y,)
y
2
ˆy(x + ) ˆy(x)
ˆy(x + ) = ˆy(x) +
x
ˆy(x) +
1
2
2
x
ˆy(x) + O(
3
)
ˆy(x+ )
E
p()
[] = 0 E
p()
[
] = νI
˜
J
x
E
p(x,y,)
ˆy(x) +
x
ˆy(x) +
1
2
2
x
ˆy(x)
2
2E
p(x,y,)
yˆy(x) + y
x
ˆy(x) +
1
2
y
2
x
ˆy(x)
+ E
p(x,y,)
y
2
= E
p(x,y,)
(ˆy(x) y)
2
+ E
p(x,y,)
ˆy(x)
2
x
ˆy(x) +
x
ˆy(x)
2
+ O(
3
)
2E
p(x,y,)
1
2
y
2
x
ˆy(x)
= J + νE
p(x,y)
(ˆy(x) y)
2
x
ˆy(x)
+ νE
p(x,y)
∇
x
ˆy(x)
2
ˆy(x)
ˆy(x) = E
p(y|x)
[y] + O(ν).
E
p(x,y)
(ˆy(x) y)
2
x
ˆy(x)
,
AB Tr(AB) = Tr(BA)
O(ν) (ˆy(x) y)
O(ν)
˜
J
x
= E
p(x,y)
(ˆy(x) y)
2
+ νE
p(x,y)
∇
x
ˆy(x)
2
+ O(ν
2
).
ν J
νI J
νE
p(x,y)
∇
x
ˆy(x)
2
ˆy(x)
x
ˆy(x) x
ˆy(x)
y
J = E
p(x,y)
(ˆy(x) y)
2
.
m {(x
(1)
, y
(1)
),
. . . , (x
(m)
, y
(m)
)}
W
(0, ηI)
L ˆy
W
(x)
˜
J
W
= E
p(x,y,
W
)
(ˆy
W
) y)
2
= E
p(x,y,
W
)
ˆy
2
W
(x) 2yˆy
W
(x) + y
2
ˆy
W
(x)
ˆy(x)
ˆy
W
(x) = ˆy(x) +
W
W
ˆy(x) +
1
2
W
2
W
ˆy(x)
W
+ O(
3
W
)
ˆy
W
(x)
˜
J
W
E
p(x,y,
W
)
ˆy(x) +
W
W
ˆy(x) +
1
2
W
2
W
ˆy(x)
W
2
E
p(x,y,
W
)
2y
ˆy(x) +
W
W
ˆy(x) +
1
2
W
2
W
ˆy(x)
W

+ E
p(x,y,
W
)
y
2
= E
p(x,y,
W
)
(ˆy(x) y)
2
2E
p(x,y,
W
)
1
2
y
W
2
W
ˆy(x)
+ E
p(x,y,
W
)
ˆy(x)
W
2
W
ˆy(x)
W
+
W
W
ˆy(x)
2
+ O(
3
W
)
.
E
W
)
W
= 0
W
E
W
)
2
W
= ηI
˜
J
W
J + νE
p(x,y)
(ˆy(x) y)
2
W
ˆy(x)
+ νE
p(x,y)
∇
W
ˆy(x)
2
ˆy(x)
ˆy(x) = E
p(y|x)
[y] + O(η),
E
p(x,y)
(ˆy(x) y)
2
W
ˆy(x)
O(η) (ˆy(x) y)
O(η)
˜
J
W
= E
p(x,y)
(ˆy(x) y)
2
+ ηE
p(x,y)
∇
W
ˆy(x)
2
+ O(η
2
).
η J
ηI J
ηE
p(x,y)
∇
W
ˆy(x)
2
0 50 100 150 200 250
Time (epochs)
0.00
0.05
0.10
0.15
0.20
Loss (negative log likelihood)
Learning curves
Training set loss
Validation set loss
ˆy(x) =
w
x + b ηE
p(x)
x
2
˜
J
W
n
p
θ
o
θ θ
o
i 0
j 0
v
θ
θ
i
i
j < p
θ n
i i + n
v
(θ)
v
< v
j 0
θ
θ
i
i
v v
j j + 1
θ
i
X
( )
y
( )
X
( )
y
( )
(X
( )
X
( )
) (y
( )
y
( )
)
θ X
( )
y
( )
X
( )
y
( )
i
θ
X
( )
y
( )
i
X
( )
y
( )
X
( )
y
( )
(X
( )
X
( )
) (y
( )
y
( )
)
θ X
( )
y
( )
X
( )
y
( )
θ
J(θ, X
( )
, y
( )
)
J(θ, X
( )
, y
( )
) >
X
( )
y
( )
n
w
1
w
2
˜
w
w
(τ)
w
1
w
2
w
θ
o
τ
τ η
ητ
θ
o
ητ
L
2
θ = w
J
w
ˆ
J(θ) = J(w
) +
1
2
(w w
)
H(θ θ
)
H J w
w
w
J(w) H
w
ˆ
J(w) = H(w w
).
w
(0)
w
(0)
= 0
w
(τ)
= w
(τ1)
η
w
J(w
(τ1)
)
= w
(τ1)
ηH(w
(τ1)
w
)
w
(τ)
w
= (I ηH)(w
(τ1)
w
)
H
H H = QΛQ
Λ Q
w
(τ)
w
= (I ηQΛQ
)(w
(τ1)
w
)
Q
(w
(τ)
w
) = (I ηΛ)Q
(w
(τ1)
w
)
w
0
= 0 |1ηλ
i
| < 1
τ
Q
w
(τ)
= [I (I ηΛ)
τ
]Q
w
.
Q
˜
w L
2
Q
˜
w = (Λ + αI)
1
ΛQ
w
Q
˜
w = [I (Λ + αI)
1
α]Q
w
(I ηΛ)
τ
= (Λ + αI)
1
α,
L
2
log(1 + x)
λ
i
ηλ
i
1 λ
i
1
τ
1
ηα
,
α
1
τη
.
τ
L
2
τη
L
2
a w
(a)
b
w
(b)
ˆy
a
= f(w
(a)
, x) ˆy
b
= g(w
(b)
, x)
i w
(a)
i
w
(b)
i
Ω(w
(a)
, w
(b)
) = w
(a)
w
(b)
2
2
L
2
i
i + 1
L
1
18
5
15
9
3
=
4 0 0 2 0 0
0 0 1 0 3 0
0 5 0 0 0 0
1 0 0 1 0 4
1 0 0 0 5 0
2
3
2
5
1
4
y R
m
A R
m×n
x R
n
14
1
1
2
23
=
3 1 2 5 4 1
4 2 3 1 1 3
1 5 4 2 3 2
3 1 2 3 0 3
5 4 2 2 5 1
0
2
0
0
3
0
y R
m
B R
m×n
h R
n
h x h x
x
J Ω(h)
˜
J
˜
J(θ; X, y) = J(θ; X, y) + αΩ(h)
α α 0
α
L
1
L
1
Ω(h) = |h|
1
=
i
|h
i
| L
1
t
t
k
i
E[
2
i
] = v E[
i
j
] =
c
1
k
i
i
E
1
k
i
i
2
=
1
k
2
E
i
2
i
+
j=i
i
j
=
1
k
v +
k 1
k
c.
c = v
v
c = 0
1
k
v
k
8
8
First ensemble member
Second ensemble member
Original dataset
First resampled dataset
Second resampled dataset
i
i
n v
P ( = y | v) =
W
v + b
y
.
d
P ( = y | v; d) =
W
(d v) + b
y
.
P ( = y | v) =
˜
P ( = y | v)
y
˜
P ( = y
| v)
˜
P ( = y | v) =
2
n
d∈{0,1}
n
P ( = y | v; d).
˜
P
˜
P ( = y | v) =
2
n
d∈{0,1}
n
P ( = y | v; d)
=
2
n
d∈{0,1}
n
(W
(d v) + b)
y
=
2
n
d∈{0,1}
n
exp
W
y,:
(d v) + b
y
exp
W
y
,:
(d v) + b
=
2
n
d∈{0,1}
n
exp
W
y,:
(d v) + b
2
n
d∈{0,1}
n
y
exp
W
y
,:
(d v) + b
˜
P
y
˜
P ( = y | v)
2
n
d∈{0,1}
n
exp
W
y,:
(d v) + b
= exp
1
2
n
d∈{0,1}
n
W
y,:
(d v) + b
= exp
1
2
W
y,:
v + b
1
2
W
O(n)
n
O(n)
y
i
x x
y
1
y
2
x
h
1
h
2
h
3
h
shared
h
1
h
2
h
shared
x
h
1
h
2
y
1
y
2
h
shared
h
3
y
1
y
2
h
shared
x
x
x
x
x
+ .007 × =
x sign(
x
J(θ, x, y))
x +
sign(
x
J(θ, x, y))
y =
w |w| w